12.5 패러다임의 확장: 시퀀스 모델링으로서의 RL (RL as Sequence Modeling) 12.5 패러다임의 확장: 시퀀스 모델링으로서의 RL (RL as Sequence Modeling) 12.5.1 결정 트랜스포머 (Decision Transformer): 궤적(Trajectory) 생성 문제로의 변환 12.5.2 궤적 트랜스포머 (Trajectory Transformer)와 빔 서치(Beam Search) 12.5.3 확산 모델 기반 정책 (Diffusion Policies)과 오프라인 RL의 결합